パラダイムの転換：タスク固有モデルから大規模言語モデルへ

NLPの進化：断片化されたAIから基盤モデルへ

断片化されたAI：シーケンスラベリングや分類などの個別タスク向けに設計された、独立した専門的なニューラルアーキテクチャで特徴づけられる時代。
基盤モデル：すべての言語的問題を生成的なテキスト対テキストのシーケンス $x \rightarrow y$ として扱う、統合的かつモノリシックなトランスフォーマー構造。

アーキテクチャの統合： 歴史的に、NLPは特定のパイプライン（NERにはBi-LSTM、感情分析にはCNN）が必要だった。大規模言語モデル（LLM）はこれらの分離された領域を一つのバックボーンに統合し、同じ重みがすべてのタスクに使用される。
統一インターフェース： LLMは専用の「出力ヘッド」（例：3クラスのSoftmax）を自然言語インターフェースに置き換える。入力と出力は常に文字列であり、モデルは「意図」を解釈するようになる。意図ではなく形式。
知識の転送： 従来のモデルは各タスクに対して「白紙状態」であった。LLMは 一般化第一を優先し、具体的なタスクは既存の堅牢な言語内部表現の応用にすぎない。

2018年以前： タスクの分離は、異なる損失関数 $\mathcal{L}_{task}$ を持つ別々のモデルの学習を必要とした。
現代の時代： 「テキスト対テキスト」のパラダイムにより、単一のモデル（例：Llama-3）がゼロショットまたはフェイショットプロンプトによってタスクを切り替えられる。

Python実装の比較

事例研究：2018年の開発者と現代の開発者

以下のシナリオを読み、質問に答えなさい。

開発者はユーザー名を識別（NER）し、怒りを検出（感情分析）するチャットボットを構築する必要がある。従来のアプローチ（2つのモデル、2つのトレーニングセット、2つのデプロイメントパイプライン）と、LLMアプローチ（例：Llama-3のような1つのモデル、2つのシステムプロンプト）を比較しなさい。

2つのアプローチ間でのアーキテクチャ上の負荷の主な違いは何ですか？

答え：
従来のアプローチでは、メモリ内に複数の異なるモデルをホスト・維持する必要がある一方、LLMアプローチでは両方のタスクを処理できる単一のモノリシックなモデルだけをホストすればよい。

新しいタスク（例：翻訳）を追加する場合、データ要件はどう異なりますか？

答え：
従来は、翻訳を追加するには、完全に新しい平行コーパスを用いて新たなモデルを学習する必要があった。一方、LLMでは、少量のショットプロンプトやゼロショット指示だけで済み、既存の知識を利用できる。

LLMアプローチでは、モデルはどのタスクを行うべきかどのように知っているのですか？

答え：
推論時に提供される自然言語プロンプトを通じて、モデルは生成出力を導く統一インターフェースとして機能する。